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摘 要 : 机 器 学 习 领 域 中 ， 如 何在 小 规模 的 训练 数据 集 上 获得 一 个 具有 稳定 的 高 计算 精度 的 算法 模型 ， 一 直 以 来 都 是 
一 个 琼 手 而 富有 挑战 的 问题 。 从 算法 模型 出 发 ,提出 了 一 种 基于 扩展 卡尔 受 滤波 器 的 资源 分 配 网 络 并 行 集成 学 习 方法 。 
该 集成 系统 由 多 个 带 有 扩展 卡尔 曼 滤 波 器 的 资源 分 配 网 络 (RANEKF) 组 成 ， 并 且 每 个 RANEKF 子 网 的 输入 由 原始 数 
据 集 中 的 输入 经 过 随机 权 值 的 修正 得 到 。 通 过 和 其 他 神经 网 络 构成 的 集成 学 习 算 法 的 实验 对 比 ， 发 现 提出 的 方法 在 小 
训练 集 上 拥有 更 高 的 计算 精度 和 稳定 性 。 
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Abstract: To design a training model with stable computational performance and high accuracy which is applied on a small 
training dataset has been a difficult and challenging problem in the field of machine learning. This paper proposed a Resource 
Allocating Networks with Extended Kalman Filter (RANEKFs) based parallel ensemble learning algorithm. The learning system 
is composed of multiple RANEKF units, and the unit inputs are produced by the original dataset with random initialized weights. 
Based on the experiment results conducted on a small dataset, it is found that the novel model outperforms the ensemble learning 
systems constructed by the other artificial neural networks in terms of the computational accuracy and stability. 
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到 足够 多 的 数据 量 或 者 满足 所 需 精度 的 样本 值 。 例 如 一 些 疾病 

数据 以 及 航空 发 动机 的 故障 数据 ， 由 于 本 身 的 发 生 率 特别 低 ， 

近 些 年 来 ， 人 工 智能 ， 特 别 是 机 器 学 习 得 到 了 学 术 界 和 工 ，” 故 其 数据 量 的 采集 变 得 非常 困难 。 但 是 ， 即 使 是 小 数据 集 本 身 
业界 的 广泛 关注 和 应 用 。 机 器 学 习 中 的 训练 是 指 算法 模型 中 的 也 是 有 价值 的 且 可 学 习 的 ， 例 如 本 文人 类 在 学 习 某 个 新 事物 的 
自由 参数 在 一 定 的 数据 环境 下 动态 的 自 适应 调整 过 程 ， 从 而 使 ” 时 候 ， 并 不 需要 大 量 的 样本 数据 。 目 前 ， 对 于 数据 集 的 “小 规 
模型 具有 新 的 输入 /输出 计算 行为 , 这 也 是 “学 习 ” 的 内 涵 所 在 。 模 ” 并 没有 明确 的 定义 。 通 常 ， 本 文 从 两 个 层面 去 衡量 数据 集 
因此 ， 在 模型 学 习 过 程 中 ， 训 练 数据 的 数量 和 质量 对 模型 有 很 。 的 规模 是 否 充足 ， 一 个 是 数据 量 与 特征 维度 之 间 的 关系 ， 另 外 
大 的 影响 ， 因 而 数据 的 采集 和 处 理 也 变 得 尤为 重要 。 在 很 多 实 个 是 数据 量 与 噪声 水 平 之 间 的 关系 。 如 果 数 据 量 没有 远大 于 
际 工程 中 ， 数 据 的 采集 是 一 项 非常 耗 时 耗 力 的 工作 ， 很 难 采 和 集 其 至 小 于 特征 维度 ， 或 者 数据 噪声 水 平 比较 高 而 数据 量 并 不 明 
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设 输入 


1 所 
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医 架 


中 每 个 RANEKF 学 
很 少 的 时 间 便 能 完成 


、 输 出 


练 过 寺 程 中 ， 


》 即 x; = 


Was 


在 计算 过 程 中 ， 隐 含 层 第 /个 节点 的 状态 为 
Xi 一 C 川 
lonll )= op (于 


点 的 输出 为 


(o0) 


wo 


FP 心 为 0 一 


点 中 心 宽 度 为 = 
b = [2 DC2) 


DG] ， 对 


) (1) 


的 连接 权 值 。 
对 于 多 分 类 问题 ， 


使 


] softmax 算法 进行 分 类 ， 


(D 
(D 2i 
a | 
最 终 分 类 输出 为 
GD 一 0O) 
1,if o; jax (ai ) 
(D 
"Ff 8 
0, Es 
图 2 资源 分 配 网 络 (RAN) 的 结构 示意 图 
2.2 网 络 训练 
在 初始 情况 下 ，RANEKF 网 络 的 隐 含 层 神经 元 数量 为 0。 


在 训练 过 程 中 ， 每 个 样本 数据 对 < xi, di >,1 < i< T，(qj 为 样 
本 xi 的 标签 值 ) 输入 到 RAN 网 络 时 ， 网 络 首先 计算 对 应 于 xi 的 
实际 输出 ， 通 过 与 期 望 标 签 di 的 比较 判断 该 样本 数据 对 < 


xi di > 是 否 满足 新 颖 性 条 件 。 如 果 满足 ， 那 么 需要 在 RAN 的 
隐 含 层 增加 新 的 神经 元 节点 ， 反 之 如 果 不 满 足 ， 则 需要 调节 
RAN 的 连接 权 值 、 节 点 中 心 和 中 心 宽度 等 参数 。 
\ 体 过 程 为 : 

a) 初 始 化 RAN 网 络 参 数 。 

b) 计 算 样本 xi 与 当前 N 个 隐 含 层 神经 元 节点 的 最 近邻 欧 氏 
距离 : 

dist(xi) = in lx -ol| (4) 


9 计算 样本 xi 的 实际 网 络 输出 与 


期 望 标签 值 必 之 间 的 误差 


err(xi) = |yi — dil (5) 


E 条 件 , 即 dist(xi) > 6gqise, 并 且 err(xi) > 


qd) 如果 满 足 新 颖 怕 


6err， 那 么 在 RAN 的 隐 含 


层 中 增加 新 的 节点 并 初始 化 ， 否 则 对 


网 络 的 参数 进行 调整 。 这里, 6qist 和 66y; 分 别 为 中 心 节点 距离 和 


输出 误差 的 新 颖 性 判定 阔 值 。 

9) 增 加 新 的 隐 层 节点 时 ， 有 隐 层 节点 数量 : 

err(xi) = |yi — dil (6) 

NeN+Ll 
新 隐 层 节点 的 中 心 : 
CN 一 Xi (7) 

隐 层 节点 的 中 心 宽度 : 

oc [o;4.:dist(xi)] (8) 
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网 络 的 输出 权 值 : 
Wout © [Wout ;err (Xi)] (9) 


) 调 节 网 络 参数 时 ， 根 据 扩展 卡尔 曼 滤 波 方 法 ， 令 


0 = [bs wi ct, or, ,whe, cm， or] (10) 
为 所 有 需要 调整 的 RAN 网 络 参 数 向 量 ， 参 数 更 新 公式 为 
ed = O(i 1) +k(i)err(i) (1 


其 中 增益 向 量 k(t) 为 

Kk(i) = PG — 1)BOIRG) + BTOPG — 1)BO)]-! 

这 里 BG) = V6f(xi) 为 函数 f(xi) 在 (i 一 1) 处 关于 @ 的 梯 
度 向 量 , RQ) 为 测量 噪声 的 方差 。 协 方差 矩阵 P € RzXx? (z = 工 十 
N x (M + 上 +1)) 更 新 方法 为 

Pzxz(i) = [7zxz 一 大 (DBT7(D)]PG 一 1)+aqorzxz (12) 

这 里 12*z 为 单位 矩阵 ， 正 标量 qo 决定 梯度 向 量 上 所 允许 的 
随机 步 长 。 需 要 注意 的 是 当 添 加 新 的 隐 含 层 节 点 后 , 矩阵 P 将 变 
化 为 


RE 


其 中 :po 时 初始 参数 的 不 确定 性 估计 ,zi 为 RAN 中 添加 一 个 新 
隐 含 层 节 点 所 增加 的 参数 数量 ， 即 2 = M+L+1。 
多 循环 步骤 b)~f)， 直 到 i = T， 即 所 有 的 样本 都 完成 训练 。 


(13) 


3 ”实验 结果 


本 文 使 用 MNIST 手写 字符 库 作为 实验 数据 集 。MNIST 包 
含 了 由 0~9 十 个 数字 构成 的 60000 组 训练 数据 以 及 10000 组 测 
试 数据 ， 其 中 每 组 数据 均 为 28*28 像素 构成 的 图 像 。 为 了 验证 
提出 的 方法 在 小 数据 集 上 的 有 效 性 ， 仅 会 使 用 训练 数据 集中 的 
很 小 一 部 分 作为 实验 的 训练 样本 集 。 
同时 ， 为 了 说 明 本 文 提出 的 方法 具有 更 高 的 计算 精度 ， 使 
用 了 多 种 弱 分 类 器 所 构成 的 集成 学 习 方 法 与 本 文 提出 的 方法 进 
行 对 比 ， 这 些 分 类 器 包括 前 馈 全 连接 神经 网 络 (feed-forward 
卷 积 神经 网 络 
(convolutional neural networks, CNNs )， 深 度 信 念 网 络 (deep 
belief nets, DBN )， 以 及 稀 玻 自动 编码 机 (sparse auto-encoders， 
SAEs)。 这 些 分 类 器 已 经 被 成 功 广泛 地 用 于 MNIST 手写 字符 识 
别 问题 中 , 在 完整 的 MNIST 数据 训练 集 上 , 这 些 网 络 都 获得 了 
97% 以 上 的 分 类 准确 率 , 说 明 这 些 网 络 都 拥有 良好 的 学 习 能 力 ， 
具有 对 比价 值 。 
比较 了 几 种 集成 网 络 在 不 同 的 训练 数据 集 规模 ， 以 及 不 同 
的 弱 学 习 器 集成 规模 下 的 分 类 精度 。 
3.1 训练 数据 集 规模 
本 文 测 试 了 在 集成 规模 为 20 的 情况 下 ， 几 种 集成 学 习 在 


fully-connected neural networks, FCNs ) ， 
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其 中 : 5 为 训练 集 规模 ， 即 保证 在 小 规模 训练 集中 ， 
数量 分 布 均匀 。 

实验 结果 如 图 3 所 示 。 可 见 在 极端 小 的 训练 样本 规模 时 ， 
每 个 类 别 的 样本 量 仅 有 5 个 ,此 时 的 5 种 模型 分 类 结果 对 比 中 ， 
仅 有 本 文 提 出 的 RANEKF-PEL 的 精度 大 于 50%。 并 且 随 着 训 
练 数据 集 的 增加 ， 几 种 集成 学 习 方 法 的 分 类 精度 的 均值 都 逐渐 
增 大 ， 并 且 分 类 精度 的 波动 都 逐渐 减 小 。 其 中 本 文 提出 的 
RANEKF 集成 学 习 方法 在 同等 训练 数据 集 规模 下 拥有 最 高 的 
分 类 精度 ， 以 及 更 小 的 精度 波动 。 
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旭 3 ”不 同 训练 集 规模 下 ， 几 种 集成 学 习 方 法 的 
分 类 精度 和 精度 波动 对 比 


3.2 ”集成 规模 
集成 规模 的 大 小 对 系统 的 输出 精度 和 稳定 性 有 着 非常 重要 
的 影响 。 通 常情 况 下 ， 越 小 的 集成 规模 的 学 习 ， 其 精度 和 稳定 
性 也 越 小 。 

实验 中 ,对 比 了 不 同 集 成 大 小 (1, 3, 5, 7, 10, 12, 15， 
18，20) 情况 下 ， 在 训练 数据 集 大 小 为 100 时 的 分 类 输出 精度 
和 波动 。 图 4 中 , RANEKF-PEL 方法 的 分 类 精度 始终 能 够 保持 
在 50% 以 上 ， 也 表明 了 本 文 提出 的 方法 在 不 同 集成 规模 下 均 拥 
有 最 高 的 精度 和 非常 小 的 精度 波动 , 即 拥有 很 高 的 计算 稳定 性 。 


1 3 $ 15 18 20 


1 
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导 4 不 同 集成 规模 下 ， 几 种 集成 学 习 方法 的 
分 类 精度 和 精度 波动 对 比 


3.3 隐 层 节点 的 变化 
如 图 5 所 示 ， 在 训练 的 起 初 阶段 ，RAN 的 隐 含 层 节点 数 
量 非 常 少 ， 此 时 网 络 的 输出 精度 较 差 ， 隐 含 层 节点 因此 增加 的 


训练 集 规模 从 50~2000 下 的 分 类 精度 ， 其 中 每 个 手写 数字 类 别 
(0~9) 的 训练 样本 数量 为 


速度 比较 快 。 而 随 着 RAN 网 络 规模 的 不 断 增长 ， 网 络 对 复杂 
模式 的 计算 能 力 不 断 增强 ， 不 需要 再 过 多 地 添加 新 的 节点 。 当 
隐 含 层 节 点 数量 达到 50 至 70 之 间 时 ， 网 络 已 经 拥有 较 好 的 计 
算 能 力 ， 因 此 隐 含 层 的 节点 数量 渐渐 趋 于 某 个 固定 值 ， 网 络 的 
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结构 状态 也 渐渐 趋 于 稳 态 。 
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5 增 量 训练 过 程 中 ，RAN 的 隐 含 层 节点 变化 情况 


对 


4 ”结束 语 


为 了 在 小 规模 训练 数据 集 上 获得 较 高 的 计算 精度 和 计算 稳 
定性 ， 本 文 提出 了 一 种 基于 带 有 扩展 卡尔 曼 滤波 器 的 资源 分 配 
网 络 的 并 行 集成 学 习 方 法 (RANEKF-PEL), 该 方法 中 每 个 资源 
分 配 网 络 (RAN) 单元 的 输入 信号 都 是 原始 样本 数据 各 个 维度 
特征 的 加 权 信 号 。 通 过 与 其 他 多 个 类 型 的 人 工 神经 网 络 单元 所 
构成 的 集成 系统 的 实验 对 比 ， 本 文 提 出 的 RANEKF-PEL 方法 


能 够 在 小 数据 集 上 训练 后 ， 能 够 获得 最 高 的 计算 精度 和 重 棒 性 
能 ， 是 一 种 有 效 可 行 的 机 器 学 习 模型 。 
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